查看原文
其他

超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型

让你更懂AI的 PaperWeekly
2024-08-23


项目网站:
https://krennic999.github.io/STAR/

论文链接: 

https://arxiv.org/pdf/2406.10797



背景介绍

通用文本引导图像生成领域近年受到广泛关注,在二次创作, 虚拟试穿和原型设计领域得到广泛应用。艺术家和设计师利用它重新构思和创新现有作品。消费者通过生成图像预览服装和配饰,提升购物体验。设计师能快速生成产品概念图,节省时间和资源。尤其扩散模型(Diffusion)由于其高质量和多元的生成,在文生图领域占有主导地位。通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程及其耗时。


自回归(Auto-regressive,AR)模型通过离散视觉编码器(VQ-VAE,d-VAE 等)将图像转化为离散 token,训练模型按顺序逐个预测新的 token,预测的整个 token map 解码即可得到生成的图像。


受大语言模型的启发,自回归模型在这一领域的应用也逐渐被探索,然而性能仍落后于扩散模型。VAR 指出是因为自回归模型逐个预测 token 的行为不符合图像模态的特点,提出 “next-scale prediction” 范式,将视觉自回归建模为逐个预测更大尺度 scale 的 token map,具体来说,next-scale prediction 基于一系列不同尺度的二维离散 token maps(),在较低分辨率 token map 的基础上逐步生成更高分辨率的 token map:

这一方式避免了原始基于 next-token 的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度。


这一方法有效地建模了离散图像 token 的二维相关性,然而其仅局限于有限类别引导的生成,无法泛化到未知的实体和概念,除此之外采用的绝对可学习位置编码,导致额外的学习参数,限制了高分辨图像生成的潜力。


为了探索这种新的生成范式在文本控制生成这一开放集任务的表现,作者提出基于尺度的文生图自回归模型 STAR,重新思考 VAR 中的 “next-scale prediction” 范式,以获得性能更好、效率更高的通用文生图模型,为目前扩散模型支配的文生图领域带来新的看法。



方法核心

具体来说,所提出的 STAR 包括两部分:增强的文本引导和改进的位置编码,以高效地实现高质量图像生成:



增强的文本引导

为了更好地处理各种复杂的文本描述并生成相应的图像,研究者提出几项关键解决方案:


1)文本特征作为起始 token map,根据起始 token map 生成更高分辨率的 token map 这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性


2)在每个 transformer 层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。


具体网络结构如下:


归一化旋转位置编码(Normalized RoPE)

对于 next-scale prediction 范式,如何利用同一个 transformer 生成不同尺度的 token map 是一个重要的问题,随之而来的是如何编码这些 token map 中的 tokens 的位置。


传统的正余弦编码难以处理不同尺度的 token map,同时编码多个尺度容易导致尺度之间的混淆。可学习的绝对位置编码需要为每个尺度的 token map 学习对应的位置编码,导致额外的学习参数,提升了训练难度,尤其是大尺度情况下的训练变得更加困难;除此之外固定个数的位置编码限制了更大分辨率图像生成的可能。


研究者提出二维的归一化旋转位置编码(Normalized RoPE),具体来说,对于一个 scale 的 token map ,对于位置 ,归一化的 RoPE 计算可表示为:

任意 token 间的相对位置被归一化到统一的尺度 ,从而确保了对不同尺度的 token map 中的相对位置有统一的理解,避免对不同尺度位置同时编码的混淆,更好地适配 scale-prediction 任务。除此之外,这一新的位置编码不需要额外的参数,更易于训练,为更高分辨率图像生成提供了潜在的可能。



训练策略

研究者选择先在 256*256 图像上以较大的 batch size 训练生成,随后在 512*512 图像上微调,以获得 512 的生成结果。由于归一化位置编码,模型很快收敛,仅需少量微调即可生成高质量 512 分辨率图像。



实验结果

相比目前的方法,所提出的 STAR 在 FID,CLIP score 和 ImageReward 上表现优异,体现了 STAR 良好的生成真实度,图文一致性和人类偏好。除此之外,STAR 生成一张 512 分辨率的高质量图像仅需约 2.9 秒,相比现有的扩散文生图模型具有显著优势。


具体地,在 MJHQ-30k 上的 FID 达到 4.73,超越了 PixArt- 等模型;CLIP score 达到 0.291,与 SDXL 相当:

在 ImageReward benchmark 上,STAR 达到了 0.87 的 image reward,与领先的 PixArt- 相当:

相比现有的方法,STAR 可以生成多元的图像类型,在人物摄影、艺术绘画、静物、风景等场景下均能获得很好的效果,生成的人脸、毛发、材质达到了令人惊叹的细节:



结论

STAR 基于 scale-wise 自回归的方式,解决了 VAR 中存在的引导条件有限、位置编码不合理的问题,实现了更高效、性能更好的文本引导图像生成。


广泛的实验证明,所提出的方法在生成图像真实度、图文一致性和人类偏好上均表现优秀。仅需约 2.9 秒的时间内,在 512 分辨率图像生成上,实现超越先进的文生图扩散模型(PixArt-、Playground、SDXL 等)的性能。


总的来说,基于自回归的 STAR 为目前 diffusion 支配的文本控制图像生成领域提供了新的可能,具有里程碑意义。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存